ஒழுங்கின்மை கண்டறிதலுக்கான மேற்பார்வையற்ற கற்றலின் சக்தியை ஆராயுங்கள். இந்த விரிவான வழிகாட்டி முக்கிய வழிமுறைகள், நடைமுறை பயன்பாடுகள் மற்றும் அசாதாரண முறைகளை அடையாளம் காண்பதற்கான உலகளாவிய நுண்ணறிவுகளை உள்ளடக்கியது.
தெரியாததைத் திறத்தல்: மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் வழிமுறைகளில் ஒரு ஆழமான மூழ்கல்
இன்றைய தரவு நிறைந்த உலகில், இயல்பானது என்ன என்பதை அடையாளம் காண்பது, என்ன இல்லை என்பதைக் கண்டறிவதை விட பெரும்பாலும் குறைவான சவாலாகும். ஒழுங்கின்மைகள், புறம்போக்குகள் அல்லது அரிதான நிகழ்வுகள் நிதி மோசடி மற்றும் இணையப் பாதுகாப்பு மீறல்கள் முதல் உபகரண செயலிழப்புகள் மற்றும் மருத்துவ அவசரநிலைகள் வரை முக்கியமான சிக்கல்களைக் குறிக்கலாம். ஒழுங்கின்மைகளின் லேபிளிடப்பட்ட எடுத்துக்காட்டுகள் ஏராளமாக இருக்கும்போது, மேற்பார்வையிடப்பட்ட கற்றல் சிறந்து விளங்குகிறது, உண்மையான ஒழுங்கின்மைகள் பெரும்பாலும் அரிதானவை, அவற்றைச் சேகரித்து திறம்பட லேபிளிடுவது கடினம். இங்கேதான் மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் வருகிறது, இது ஒரு ஒழுங்கின்மை எதைக் குறிக்கிறது என்பது பற்றிய முந்தைய அறிவு இல்லாமல் இந்த மறைக்கப்பட்ட விலகல்களைக் கண்டறிய ஒரு சக்திவாய்ந்த அணுகுமுறையை வழங்குகிறது.
இந்த விரிவான வழிகாட்டி மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் வழிமுறைகளின் கண்கவர் பகுதிக்குள் செல்லும். முக்கிய கருத்துக்களை ஆராய்வோம், பல்வேறு வழிமுறை அணுகுமுறைகளைப் பற்றி விவாதிப்போம், அவற்றின் பலம் மற்றும் பலவீனங்களை எடுத்துக்காட்டுவோம், மேலும் பல்வேறு உலகளாவிய தொழில்களில் அவற்றின் பயன்பாட்டிற்கான நடைமுறை எடுத்துக்காட்டுகளை வழங்குவோம். சிறந்த முடிவெடுப்பதற்கு, மேம்பட்ட பாதுகாப்பு மற்றும் உலகளாவிய அளவில் மேம்படுத்தப்பட்ட செயல்பாட்டு திறனுக்காக இந்த நுட்பங்களைப் பயன்படுத்த உங்களுக்கு அறிவை வழங்குவதே எங்கள் குறிக்கோள்.
ஒழுங்கின்மை கண்டறிதல் என்றால் என்ன?
இதன் இதயத்தில், ஒழுங்கின்மை கண்டறிதல் என்பது தரவு புள்ளிகள், நிகழ்வுகள் அல்லது தரவுத்தொகுப்பின் எதிர்பார்க்கப்படும் அல்லது இயல்பான நடத்தையிலிருந்து கணிசமாக விலகிச் செல்லும் அவதானிப்புகளை அடையாளம் காணும் செயல்முறையாகும். இந்த விலகல்கள் பெரும்பாலும் இவ்வாறு குறிப்பிடப்படுகின்றன:
- புறம்போக்குகள்: தரவின் முக்கிய கொத்திலிருந்து வெகு தொலைவில் இருக்கும் தரவு புள்ளிகள்.
- ஒழுங்கின்மைகள்: அசாதாரண நிகழ்வுகளுக்கான பொதுவான சொல்.
- விலக்குகள்: முன் வரையறுக்கப்பட்ட விதி அல்லது முறைக்கு பொருந்தாத தரவு.
- புதுமைகள்: முன்பு பார்த்த இயல்பான தரவிலிருந்து வேறுபட்ட புதிய தரவு புள்ளிகள்.
ஒழுங்கின்மையின் முக்கியத்துவம் ஏதோ முக்கியமானதைச் சமிக்ஞை செய்வதற்கான அதன் திறனில் உள்ளது. இந்த உலகளாவிய காட்சிகளைக் கவனியுங்கள்:
- நிதி: அசாதாரணமாக பெரிய அல்லது அடிக்கடி பரிவர்த்தனைகள் உலகளவில் வங்கி அமைப்புகளில் மோசடியான நடவடிக்கையைக் குறிக்கலாம்.
- இணையப் பாதுகாப்பு: எதிர்பாராத இடத்திலிருந்து வரும் நெட்வொர்க் ட்ராஃபிக்கில் திடீர் அதிகரிப்பு ஒரு சர்வதேச நிறுவனத்தின் மீது இணைய தாக்குதலைக் குறிக்கலாம்.
- உற்பத்தி: ஜெர்மனியில் உள்ள ஒரு உற்பத்தி வரிசையில் ஒரு இயந்திரத்தின் அதிர்வு முறைகளில் ஒரு நுட்பமான மாற்றம் ஒரு முக்கியமான தோல்விக்கு முன்னோடியாக இருக்கலாம்.
- சுகாதாரம்: ஜப்பானில் அணியக்கூடிய சாதனங்கள் மூலம் கண்டறியப்பட்ட ஒழுங்கற்ற நோயாளி முக்கிய அறிகுறிகள் வரவிருக்கும் சுகாதார நெருக்கடிக்கு மருத்துவ நிபுணர்களுக்கு எச்சரிக்கை செய்யலாம்.
- இ-காமர்ஸ்: உலகளாவிய சில்லறை விற்பனை தளத்தில் இணையதள செயல்திறனில் திடீர் சரிவு அல்லது பிழை விகிதங்களில் அசாதாரண அதிகரிப்பு வாடிக்கையாளர்களை பாதிக்கும் தொழில்நுட்ப சிக்கல்களைக் குறிக்கலாம்.
ஒழுங்கின்மை கண்டறிதலின் சவால்
ஒழுங்கின்மைகளைக் கண்டறிவது இயல்பாகவே பல காரணிகளால் சவாலானது:
- அரிதான தன்மை: ஒழுங்கின்மைகள், வரையறையின்படி, அரிதானவை. இது மேற்பார்வையிடப்பட்ட கற்றலுக்கான போதுமான எடுத்துக்காட்டுகளைச் சேகரிப்பதை கடினமாக்குகிறது.
- பன்முகத்தன்மை: ஒழுங்கின்மைகள் எண்ணற்ற வழிகளில் வெளிப்படலாம், மேலும் ஒழுங்கற்றதாகக் கருதப்படுவது காலப்போக்கில் மாறக்கூடும்.
- சத்தம்: தரவுகளில் உள்ள தற்செயலான சத்தத்திலிருந்து உண்மையான ஒழுங்கின்மைகளை வேறுபடுத்துவதற்கு வலுவான முறைகள் தேவை.
- அதிக பரிமாணம்: அதிக பரிமாண தரவுகளில், ஒரு பரிமாணத்தில் இயல்பானதாகத் தோன்றுவது மற்றொன்றில் ஒழுங்கற்றதாக இருக்கலாம், இது காட்சி ஆய்வை சாத்தியமற்றதாக்குகிறது.
- கருத்து சறுக்கல்: 'சாதாரண' வரையறை மாறக்கூடும், இது மாறக்கூடிய வடிவங்களுக்கு ஏற்ப மாதிரிகள் தேவைப்படுகிறது.
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல்: லேபிள்கள் இல்லாமல் கற்றலின் சக்தி
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் வழிமுறைகள் பெரும்பாலான தரவு இயல்பானது என்றும், ஒழுங்கின்மைகள் இந்த விதிமுறையிலிருந்து விலகிச் செல்லும் அரிதான தரவு புள்ளிகள் என்ற அனுமானத்தின் கீழ் செயல்படுகின்றன. 'சாதாரண' தரவின் உள்ளார்ந்த அமைப்பு அல்லது விநியோகத்தைக் கற்றுக்கொள்வதும், பின்னர் இந்த கற்றல் பிரதிநிதித்துவத்துடன் பொருந்தாத புள்ளிகளை அடையாளம் காண்பதும் முக்கிய யோசனையாகும். லேபிளிடப்பட்ட ஒழுங்கின்மை தரவு குறைவாக இருக்கும்போது அல்லது இல்லாதபோது இந்த அணுகுமுறை நம்பமுடியாத மதிப்புமிக்கது.
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் நுட்பங்களை அவற்றின் அடிப்படை கொள்கைகளின் அடிப்படையில் சில முக்கிய குழுக்களாக வகைப்படுத்தலாம்:
1. அடர்த்தி அடிப்படையிலான முறைகள்
இந்த முறைகள் ஒழுங்கின்மைகள் தரவு இடத்தின் குறைந்த அடர்த்தி பகுதிகளில் அமைந்துள்ள புள்ளிகள் என்று கருதுகின்றன. ஒரு தரவு புள்ளியில் சில அண்டை வீடுகள் இருந்தால் அல்லது எந்த கொத்துகளிலிருந்தும் வெகு தொலைவில் இருந்தால், அது ஒழுங்கின்மையாக இருக்கலாம்.
a) உள்ளூர் புறம்போக்கு காரணி (LOF)
LOF என்பது ஒரு பிரபலமான வழிமுறையாகும், இது ஒரு கொடுக்கப்பட்ட தரவு புள்ளியின் உள்ளூர் விலகலை அதன் அண்டை வீட்டாருடன் ஒப்பிடுகிறது. இது ஒரு தரவு புள்ளியின் சுற்றுப்புறங்களில் உள்ள புள்ளிகளின் அடர்த்தியைக் கருதுகிறது. ஒரு புள்ளியின் உள்ளூர் அடர்த்தி அதன் அண்டை வீட்டாருடைய உள்ளூர் அடர்த்தியை விட கணிசமாக குறைவாக இருந்தால், அது ஒரு புறம்போக்காக கருதப்படுகிறது. அதாவது ஒரு புள்ளி உலகளவில் அடர்த்தியான பகுதியில் இருக்கலாம், ஆனால் அதன் உடனடி சுற்றுப்புறம் குறைவாக இருந்தால், அது கொடியிடப்படும்.
- இது எவ்வாறு செயல்படுகிறது: ஒவ்வொரு தரவு புள்ளிக்கும், LOF அதன் k- நெருங்கிய அண்டை வீட்டாருக்கான 'அணுகல் தூரத்தை' கணக்கிடுகிறது. பின்னர் ஒரு புள்ளியின் உள்ளூர் அணுகல் அடர்த்தியை அதன் அண்டை வீட்டாருடைய சராசரி உள்ளூர் அணுகல் அடர்த்தியுடன் ஒப்பிடுகிறது. 1 ஐ விட அதிகமான LOF ஸ்கோர், அந்த புள்ளி அதன் அண்டை வீடுகளை விட குறைவான பிராந்தியத்தில் உள்ளது என்பதைக் குறிக்கிறது, அது ஒரு புறம்போக்கு என்று பரிந்துரைக்கிறது.
- பலங்கள்: உலகளவில் அரிதானதாக இல்லாத ஆனால் உள்நாட்டில் குறைவாக இருக்கும் புறம்போக்குகளைக் கண்டறிய முடியும். மாறுபட்ட அடர்த்திகளுடன் தரவுத்தொகுப்புகளை நன்றாகக் கையாள்கிறது.
- பலவீனங்கள்: 'k' (அண்டை வீடுகளின் எண்ணிக்கை) தேர்வுக்கு உணர்திறன் கொண்டது. பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு தீவிரமானது.
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: தென்கிழக்கு ஆசியாவில் உள்ள ஒரு இ-காமர்ஸ் தளத்தில் அசாதாரண வாடிக்கையாளர் நடத்தையைக் கண்டறிதல். ஒரு வாடிக்கையாளர் திடீரென அவர்களின் வழக்கமான முறையை விட முற்றிலும் மாறுபட்ட தயாரிப்பு வகை அல்லது பிராந்தியத்தில் கொள்முதல் செய்யத் தொடங்கினால், LOF ஆல் கொடியிடப்படலாம், இது கணக்கு சமரசம் அல்லது புதிய, அசாதாரண ஆர்வத்தைக் குறிக்கும்.
b) DBSCAN (சத்தத்துடன் பயன்பாடுகளின் அடர்த்தி அடிப்படையிலான இடஞ்சார்ந்த கிளஸ்டரிங்)
முதன்மையாக ஒரு கிளஸ்டரிங் வழிமுறையாக இருந்தாலும், DBSCAN ஐ ஒழுங்கின்மை கண்டறிதலுக்கும் பயன்படுத்தலாம். குறைந்த அடர்த்தியின் பகுதிகளால் பிரிக்கப்பட்ட அடர்த்தியான பேக் புள்ளிகளை இது ஒன்றாகக் குழுவாக்குகிறது. எந்த கொத்துக்கும் சொந்தமில்லாத புள்ளிகள் சத்தம் அல்லது புறம்போக்குகளாக கருதப்படுகின்றன.
- இது எவ்வாறு செயல்படுகிறது: DBSCAN இரண்டு அளவுருக்களை வரையறுக்கிறது: 'எப்சிலான்' (ε), ஒரு மாதிரி மற்றொன்றின் சுற்றுப்புறத்தில் உள்ளதாகக் கருதப்படும் இரண்டு மாதிரிகளுக்கு இடையிலான அதிகபட்ச தூரம், மற்றும் 'min_samples', ஒரு புள்ளி முக்கிய புள்ளியாகக் கருதப்படுவதற்கு ஒரு சுற்றுப்புறத்தில் உள்ள மாதிரிகளின் எண்ணிக்கை. எந்த முக்கிய புள்ளியிலிருந்தும் அடைய முடியாத புள்ளிகள் சத்தமாகக் குறிக்கப்படுகின்றன.
- பலங்கள்: தன்னிச்சையாக வடிவமைக்கப்பட்ட கொத்துகளைக் கண்டுபிடித்து சத்தம் புள்ளிகளை திறம்பட அடையாளம் காண முடியும். கொத்துகளின் எண்ணிக்கையை குறிப்பிட தேவையில்லை.
- பலவீனங்கள்: ε மற்றும் 'min_samples' தேர்வுக்கு உணர்திறன் கொண்டது. மாறுபட்ட அடர்த்திகளைக் கொண்ட தரவுத்தொகுப்புகளுடன் போராடுகிறது.
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: உலகளாவிய இணையப் பாதுகாப்பு சூழலில் அசாதாரண நெட்வொர்க் ஊடுருவல் முறைகளை அடையாளம் காணுதல். DBSCAN இயல்பான ட்ராஃபிக் முறைகளை கொத்துகளாகக் குழுவாக்கலாம், மேலும் இந்த அடர்த்தியான கொத்துகளுக்கு வெளியே விழும் எந்த ட்ராஃபിക്കും (அதாவது, சத்தமாகக் கருதப்படுகிறது) ஒரு நாவல் தாக்குதல் திசையன் அல்லது அசாதாரண மூலத்திலிருந்து உருவாகும் போட்நெட் செயல்பாட்டை பிரதிபலிக்கக்கூடும்.
2. தூர அடிப்படையிலான முறைகள்
இந்த முறைகள் ஒழுங்கின்மைகளை தரவுத்தொகுப்பில் உள்ள வேறு எந்த தரவு புள்ளிகளிலிருந்தும் வெகு தொலைவில் உள்ள தரவு புள்ளிகளாக வரையறுக்கின்றன. இயல்பான தரவு புள்ளிகள் ஒன்றுக்கொன்று நெருக்கமாக உள்ளன, அதே நேரத்தில் ஒழுங்கின்மைகள் தனிமைப்படுத்தப்படுகின்றன.
a) கே-நெருங்கிய அண்டை வீட்டார் (KNN) தூரம்
ஒவ்வொரு தரவு புள்ளியின் தூரத்தையும் அதன் k-வது நெருங்கிய அண்டை வீட்டிற்கு கணக்கிடுவது ஒரு நேரடியான அணுகுமுறை. அவற்றின் k-வது அண்டை வீட்டிற்கு அதிக தூரம் உள்ள புள்ளிகள் புறம்போக்குகளாக கருதப்படுகின்றன.
- இது எவ்வாறு செயல்படுகிறது: ஒவ்வொரு புள்ளிக்கும், அதன் k-வது நெருங்கிய அண்டை வீட்டிற்கான தூரத்தை கணக்கிடுங்கள். ஒரு குறிப்பிட்ட வரம்புக்கு மேலே உள்ள தூரங்களைக் கொண்ட புள்ளிகள் அல்லது மேல் சதவீதத்தில் உள்ள புள்ளிகள் ஒழுங்கின்மைகளாக கொடியிடப்படுகின்றன.
- பலங்கள்: புரிந்து கொள்ளவும் செயல்படுத்தவும் எளிமையானது.
- பலவீனங்கள்: பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக விலை உயர்ந்ததாக இருக்கும். 'k' தேர்வுக்கு உணர்திறன் கொண்டது. அதிக பரிமாண இடைவெளிகளில் நன்றாக செயல்படாமல் போகலாம் (பரிமாணத்தின் சாபம்).
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: மோசடியான கிரெடிட் கார்டு பரிவர்த்தனைகளைக் கண்டறிதல். ஒரு பரிவர்த்தனை கார்டுதாரரின் வழக்கமான பரிவர்த்தனை கொத்திலிருந்து (செலவு முறைகள், இருப்பிடம், நேரம் போன்றவற்றின் அடிப்படையில்) k-வது நெருங்கிய பரிவர்த்தனையை விட கணிசமாக தொலைவில் இருந்தால், அது கொடியிடப்படலாம்.
3. புள்ளிவிவர முறைகள்
இந்த முறைகள் பெரும்பாலும் 'சாதாரண' தரவு ஒரு குறிப்பிட்ட புள்ளிவிவர விநியோகத்தைப் பின்பற்றுகிறது என்று கருதுகின்றன (எ.கா., காசியன்). இந்த விநியோகத்திலிருந்து கணிசமாக விலகிச் செல்லும் புள்ளிகள் ஒழுங்கின்மைகளாக கருதப்படுகின்றன.
a) காசியன் கலவை மாதிரிகள் (GMM)
GMM தரவு பல காசியன் விநியோகங்களின் கலவையிலிருந்து உருவாக்கப்படுகிறது என்று கருதுகிறது. கற்றல் GMM இன் கீழ் குறைந்த நிகழ்தகவைக் கொண்ட புள்ளிகள் ஒழுங்கின்மைகளாக கருதப்படுகின்றன.
- இது எவ்வாறு செயல்படுகிறது: GMM தரவுகளுக்கு காசியன் விநியோகங்களின் தொகுப்பை பொருத்துகிறது. பொருத்தப்பட்ட மாதிரியின் நிகழ்தகவு அடர்த்தி செயல்பாடு (PDF) பின்னர் ஒவ்வொரு தரவு புள்ளியையும் மதிப்பெண் செய்யப் பயன்படுத்தப்படுகிறது. மிகக் குறைந்த நிகழ்தகவுகளைக் கொண்ட புள்ளிகள் கொடியிடப்படுகின்றன.
- பலங்கள்: சிக்கலான, பல மாதிரி விநியோகங்களை மாதிரியாகக் கொள்ள முடியும். ஒழுங்கின்மையின் நிகழ்தகவு அளவை வழங்குகிறது.
- பலவீனங்கள்: தரவு காசியன் கூறுகளிலிருந்து உருவாக்கப்பட்டது என்று கருதுகிறது, இது எப்போதும் உண்மையாக இருக்காது. துவக்கம் மற்றும் கூறுகளின் எண்ணிக்கைக்கு உணர்திறன் கொண்டது.
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: உலகளாவிய விநியோகச் சங்கிலியில் உள்ள தொழில்துறை உபகரணங்களிலிருந்து சென்சார் தரவைக் கண்காணித்தல். GMM சென்சார்களின் (வெப்பநிலை, அழுத்தம், அதிர்வு) வழக்கமான இயக்க அளவுருக்களை மாதிரியாகக் கொள்ள முடியும். கற்றல் விநியோகத்தின் குறைந்த நிகழ்தகவு பகுதியில் ஒரு சென்சார் ரீடிங் விழுந்தால், அது ஒரு செயலிழப்பு அல்லது ஒரு அசாதாரண இயக்க நிலையைக் குறிக்கலாம், அது வரம்பு மீறியதா அல்லது வரம்புக்குக் குறைவாக இருக்கிறதா என்பதைப் பொருட்படுத்தாமல் விசாரணை தேவை.
- இது எவ்வாறு செயல்படுகிறது: இது தரவை ஒரு உயர்-பரிமாண இடத்திற்கு வரைபடமாக்க முயற்சிக்கிறது, அங்கு அது தரவை தோற்றத்திலிருந்து பிரிக்கக்கூடிய ஒரு ஹைப்பர்ப்ளேன்ட் (hyperplane) கண்டுபிடிக்க முடியும். தோற்றத்தைச் சுற்றியுள்ள பகுதி 'சாதாரணமாக' கருதப்படுகிறது.
- பலங்கள்: அதிக பரிமாண இடைவெளிகளில் பயனுள்ளது. சிக்கலான நேரியல் அல்லாத எல்லைகளை கைப்பற்ற முடியும்.
- பலவீனங்கள்: கர்னல் மற்றும் ஹைப்பர் அளவுருக்கள் தேர்வுக்கு உணர்திறன் கொண்டது. மிக பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக விலை உயர்ந்ததாக இருக்கும்.
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: உலகளவில் வணிகங்களால் பயன்படுத்தப்படும் ஒரு கிளவுட் கம்ப்யூட்டிங் தளத்தில் அசாதாரண பயனர் செயல்பாட்டைக் கண்டறிதல். ஒன்-கிளாஸ் SVM அங்கீகரிக்கப்பட்ட பயனர்களுக்கான ஆதாரங்களின் (CPU, நினைவகம், நெட்வொர்க் I/O) 'சாதாரண' பயன்பாட்டு முறைகளைக் கற்றுக்கொள்ள முடியும். இந்த கற்றல் சுயவிவரத்திலிருந்து கணிசமாக விலகிச் செல்லும் எந்த பயன்பாடும் சமரசம் செய்யப்பட்ட சான்றுகளை அல்லது தீங்கு விளைவிக்கும் உள் செயல்பாட்டைக் குறிக்கலாம்.
- இது எவ்வாறு செயல்படுகிறது: இது 'தனிமை மரங்களின்' குழுமத்தை உருவாக்குகிறது. ஒவ்வொரு மரத்திற்கும், தரவு புள்ளிகள் ஒரு அம்சத்தையும் ஒரு பிளவு மதிப்பையும் தோராயமாகத் தேர்ந்தெடுப்பதன் மூலம் மீண்டும் மீண்டும் பிரிக்கப்படுகின்றன. ஒரு தரவு புள்ளி முடிவடையும் டெர்மினல் நோடுக்கு ரூட் நோடிலிருந்து பாதையின் நீளம் 'ஒழுங்கின்மை ஸ்கோர்' குறிக்கிறது. குறுகிய பாதை நீளம் ஒழுங்கின்மைகளைக் குறிக்கிறது.
- பலங்கள்: குறிப்பாக பெரிய தரவுத்தொகுப்புகளுக்கு மிகவும் திறமையான மற்றும் அளவிடக்கூடியது. அதிக பரிமாண இடைவெளிகளில் நன்றாக செயல்படுகிறது. சில அளவுருக்கள் தேவை.
- பலவீனங்கள்: உள்நாட்டில் தனிமைப்படுத்தப்படாத உலகளாவிய ஒழுங்கின்மைகளுடன் போராடலாம். பொருத்தமற்ற அம்சங்களுக்கு உணர்திறன் இருக்கும்.
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: ஐரோப்பாவில் ஒரு ஸ்மார்ட் சிட்டி உள்கட்டமைப்பு முழுவதும் IoT சாதன தரவு ஸ்ட்ரீம்களை கண்காணித்தல். தனிமைப்படுத்தப்பட்ட காடு ஆயிரக்கணக்கான சென்சார்களிலிருந்து அதிக அளவு, அதிவேக தரவை விரைவாக செயலாக்க முடியும். அதன் வகை மற்றும் இடத்திற்கான எதிர்பார்க்கப்படும் வரம்பு அல்லது முறையிலிருந்து கணிசமாக வேறுபட்ட மதிப்பை அறிக்கை செய்யும் சென்சார், மரங்களில் விரைவாக தனிமைப்படுத்தப்படும், ஆய்வுக்கான எச்சரிக்கையைத் தூண்டுகிறது.
- இது எவ்வாறு செயல்படுகிறது: பெரும்பாலும் இயல்பானதாகக் கருதப்படும் ஒரு தரவுத்தொகுப்பில் தானியங்கி குறியீட்டாளருக்கு பயிற்சி அளிக்கவும். பின்னர், எந்தவொரு புதிய தரவு புள்ளிக்கும், அதை தானியங்கி குறியீட்டின் மூலம் கடந்து, புனரமைப்பு பிழையை கணக்கிடுங்கள் (எ.கா., உள்ளீடு மற்றும் வெளியீட்டிற்கு இடையே சராசரி சதுர பிழை). அதிக புனரமைப்பு பிழை உள்ள தரவு புள்ளிகள் ஒழுங்கின்மைகளாக கொடியிடப்படுகின்றன.
- பலங்கள்: சாதாரண தரவின் சிக்கலான, நேரியல் அல்லாத பிரதிநிதித்துவங்களைக் கற்றுக்கொள்ள முடியும். அதிக பரிமாண இடைவெளிகளில் மற்றும் நுட்பமான ஒழுங்கின்மைகளைக் கண்டறிய பயனுள்ளவை.
- பலவீனங்கள்: நெட்வொர்க் கட்டிடக்கலை மற்றும் ஹைப்பர் அளவுருக்களின் கவனமான சரிசெய்தல் தேவைப்படுகிறது. பயிற்சிக்கு கணக்கீட்டு தீவிரமாக இருக்கலாம். சத்தமில்லாத சாதாரண தரவுக்கு அதிகப்படியான பொருத்தம் இருக்கலாம்.
- உலகளாவிய பயன்பாட்டு எடுத்துக்காட்டு: கண்டங்கள் முழுவதும் சுற்றுச்சூழல் கண்காணிப்புக்கான செயற்கைக்கோள் படங்களில் அசாதாரண முறைகளைக் கண்டறிதல். வனப் பாதுகாப்பு பற்றிய சாதாரண செயற்கைக்கோள் படங்களில் பயிற்சி அளிக்கப்பட்ட ஒரு தானியங்கி குறியீட்டாளர், எடுத்துக்காட்டாக, எதிர்பாராத வன அழிவு, சட்டவிரோத சுரங்க நடவடிக்கை அல்லது தென் அமெரிக்கா அல்லது ஆப்பிரிக்காவின் தொலைதூரப் பகுதிகளில் அசாதாரண விவசாய மாற்றங்களைக் காட்டும் படங்களுக்கு அதிக புனரமைப்பு பிழையை உருவாக்கும்.
- தரவின் இயல்பு: இது நேரத் தொடரா, அட்டவணை, படம், உரை? இதற்கு உள்ளார்ந்த அமைப்பு இருக்கிறதா (எ.கா., கொத்துகள்)?
- பரிமாணம்: அதிக பரிமாண தரவு தனிமைப்படுத்தப்பட்ட காடு அல்லது தானியங்கி குறியீட்டாளர்கள் போன்ற முறைகளை ஆதரிக்கலாம்.
- தரவுத்தொகுப்பு அளவு: சில வழிமுறைகள் மற்றவர்களை விட கணக்கீட்டு ரீதியாக விலை உயர்ந்தவை.
- ஒழுங்கின்மைகளின் வகை: புள்ளி ஒழுங்கின்மைகள், சூழ்நிலை ஒழுங்கின்மைகள் அல்லது கூட்டு ஒழுங்கின்மைகளை நீங்கள் தேடுகிறீர்களா?
- விளக்க திறன்: ஒரு புள்ளி ஒழுங்கற்றதாகக் குறிக்கப்படுவது ஏன் என்பதைப் புரிந்துகொள்வது எவ்வளவு முக்கியம்?
- செயல்திறன் தேவைகள்: நிகழ்நேர கண்டறிதலுக்கு மிகவும் திறமையான வழிமுறைகள் தேவை.
- ஆதாரங்களின் கிடைக்கும் தன்மை: கணக்கீட்டு சக்தி, நினைவகம் மற்றும் நிபுணத்துவம்.
- தரவு பன்முகத்தன்மை: வெவ்வேறு பிராந்தியங்களிலிருந்து தரவு வெவ்வேறு பண்புகள் அல்லது அளவீட்டு அளவுகளைக் கொண்டிருக்கலாம். முந்தைய செயலாக்கம் மற்றும் இயல்பாக்கம் மிக முக்கியம்.
- கலாச்சார நுணுக்கங்கள்: ஒழுங்கின்மை கண்டறிதல் புறநிலையாக இருந்தாலும், 'சாதாரண' அல்லது 'அசாதாரண' முறை எதைக் குறிக்கிறது என்பதற்கான விளக்கம் சில நேரங்களில் நுட்பமான கலாச்சார தாக்கங்களைக் கொண்டிருக்கலாம், இருப்பினும் இது தொழில்நுட்ப ஒழுங்கின்மை கண்டறிதலில் குறைவாகவே காணப்படுகிறது.
- ஒழுங்குமுறை இணக்கம்: தொழில் மற்றும் பிராந்தியத்தைப் பொறுத்து, தரவு கையாளுதல் மற்றும் ஒழுங்கின்மை அறிக்கை தொடர்பாக குறிப்பிட்ட விதிமுறைகள் இருக்கலாம் (எ.கா., ஐரோப்பாவில் GDPR, கலிபோர்னியாவில் CCPA).
- அளவிடுதல் மற்றும் இயல்பாக்கம்: அம்சங்கள் ஒப்பிடக்கூடிய அளவுகளில் இருப்பதை உறுதிப்படுத்தவும். மின்-மேக்ஸ் அளவிடுதல் அல்லது தரப்படுத்தல் போன்ற முறைகள் அவசியம், குறிப்பாக தூர அடிப்படையிலான மற்றும் அடர்த்தி அடிப்படையிலான வழிமுறைகளுக்கு.
- விடுபட்ட மதிப்புகளைக் கையாளுதல்: உங்கள் தரவு மற்றும் வழிமுறைக்கு ஏற்ற ஒரு மூலோபாயத்தை (உள்ளீடு, அகற்றுதல்) முடிவு செய்யுங்கள்.
- அம்ச பொறியியல்: சில நேரங்களில், புதிய அம்சங்களை உருவாக்குவது ஒழுங்கின்மைகளை முன்னிலைப்படுத்த உதவும். நேரத் தொடர் தரவுகளுக்கு, இதில் பின்தங்கிய மதிப்புகள் அல்லது ரோலிங் புள்ளிவிவரங்கள் இருக்கலாம்.
- சதவீதம் அடிப்படையிலானது: ஒரு குறிப்பிட்ட சதவீத புள்ளிகள் (எ.கா., மேல் 1%) கொடியிடப்படும் வகையில் ஒரு வரம்பைத் தேர்ந்தெடுக்கவும்.
- காட்சி ஆய்வு: ஒழுங்கின்மை மதிப்பெண்களின் விநியோகத்தை வரைபடமாக்குதல் மற்றும் இயற்கையான வெட்டு புள்ளியை காட்சி ரீதியாக அடையாளம் காணுதல்.
- டொமைன் நிபுணத்துவம்: ஏற்றுக்கொள்ளத்தக்க ஆபத்தை அடிப்படையாகக் கொண்டு ஒரு அர்த்தமுள்ள வரம்பை அமைக்க பொருள் விஷய வல்லுநர்களுடன் கலந்தாலோசித்தல்.
- அளவீடுகள்: துல்லியம், நினைவு, F1-ஸ்கோர், ROC AUC, PR AUC பொதுவாக பயன்படுத்தப்படுகின்றன. வகுப்பு சமநிலையின்மை (சில ஒழுங்கின்மைகள்) முடிவுகளை சிதைக்கும் என்பதை நினைவில் கொள்ளுங்கள்.
- தரமான மதிப்பீடு: சரிபார்ப்புக்காக கொடியிடப்பட்ட ஒழுங்கின்மைகளை டொமைன் வல்லுநர்களுக்கு வழங்குவது பெரும்பாலும் மிகவும் நடைமுறை அணுகுமுறையாகும்.
- லேபிளிடப்பட்ட ஒழுங்கின்மை தரவு குறைவாக இருக்கும்போது மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் முக்கியமானது.
- LOF, DBSCAN, தனிமைப்படுத்தப்பட்ட காடு, GMM, ஒன்-கிளாஸ் SVM மற்றும் தானியங்கி குறியீட்டாளர்கள் போன்ற வழிமுறைகள் விலகல்களை அடையாளம் காண பல்வேறு அணுகுமுறைகளை வழங்குகின்றன.
- தரவு முந்தைய செயலாக்கம், பொருத்தமான வரம்பு தேர்வு மற்றும் நிபுணர் சரிபார்ப்பு ஆகியவை நடைமுறை வெற்றிக்கு இன்றியமையாதவை.
- கருத்து சறுக்கலை எதிர்கொள்ள தொடர்ச்சியான கண்காணிப்பு மற்றும் தழுவல் அவசியம்.
- ஒரு உலகளாவிய முன்னோக்கு பிராந்திய தரவு மாறுபாடுகள் மற்றும் தேவைகளுக்கு வழிமுறைகள் மற்றும் அவற்றின் பயன்பாடுகள் வலுவானவை என்பதை உறுதி செய்கிறது.
b) ஒன்-கிளாஸ் SVM (சப்போர்ட் வெக்டர் மெஷின்)
ஒன்-கிளாஸ் SVM 'சாதாரண' தரவு புள்ளிகளின் பெரும்பான்மையை உள்ளடக்கும் ஒரு எல்லையைக் கண்டுபிடிக்க வடிவமைக்கப்பட்டுள்ளது. இந்த எல்லைக்கு வெளியே விழும் எந்த புள்ளியும் ஒழுங்கின்மையாக கருதப்படுகிறது.
4. மரம் அடிப்படையிலான முறைகள்
இந்த முறைகள் பெரும்பாலும் ஒழுங்கின்மைகளை தனிமைப்படுத்த மரங்களின் குழுமத்தை உருவாக்குகின்றன. ஒழுங்கின்மைகள் வழக்கமாக மரங்களின் வேருக்கு நெருக்கமாகக் காணப்படுகின்றன, ஏனெனில் அவை தரவின் மற்ற பகுதிகளிலிருந்து பிரிப்பது எளிது.
a) தனிமைப்படுத்தப்பட்ட காடு
தனிமைப்படுத்தப்பட்ட காடு என்பது ஒழுங்கின்மை கண்டறிதலுக்கான மிகவும் பயனுள்ள மற்றும் திறமையான வழிமுறையாகும். இது ஒரு அம்சத்தைத் தோராயமாகத் தேர்ந்தெடுப்பதன் மூலமும், அந்த அம்சத்திற்கான பிளவு மதிப்பைத் தோராயமாகத் தேர்ந்தெடுப்பதன் மூலமும் செயல்படுகிறது. ஒழுங்கின்மைகள், சில மற்றும் வேறுபட்டவை, குறைந்த படிகளில் (மரத்தின் வேருக்கு நெருக்கமாக) தனிமைப்படுத்தப்படும் என்று எதிர்பார்க்கப்படுகிறது.
5. புனரமைப்பு அடிப்படையிலான முறைகள் (தானியங்கி குறியீட்டாளர்கள்)
தானியங்கி குறியீட்டாளர்கள் தங்கள் உள்ளீட்டை மீண்டும் கட்டியெழுப்ப பயிற்சி பெற்ற நரம்பியல் நெட்வொர்க்குகள். அவை சாதாரண தரவுகளில் பயிற்சி அளிக்கப்படுகின்றன. ஒழுங்கற்ற தரவு வழங்கப்படும்போது, அவை அதைத் துல்லியமாக புனரமைக்க போராடுகின்றன, இதன் விளைவாக அதிக புனரமைப்பு பிழை ஏற்படுகிறது.
a) தானியங்கி குறியீட்டாளர்கள்
தானியங்கி குறியீட்டாளர் ஒரு குறியாக்கியைக் கொண்டுள்ளது, இது உள்ளீட்டை குறைந்த பரிமாண மறைந்த பிரதிநிதித்துவமாக சுருக்குகிறது மற்றும் இந்த பிரதிநிதித்துவத்திலிருந்து உள்ளீட்டை மீண்டும் உருவாக்குகிறது. சாதாரண தரவுகளில் மட்டுமே பயிற்சி அளிப்பதன் மூலம், தானியங்கி குறியீட்டாளர் இயல்பான தன்மையின் அத்தியாவசிய அம்சங்களைப் பிடிக்க கற்றுக்கொள்கிறார். ஒழுங்கின்மைகள் அதிக புனரமைப்பு பிழைகளைக் கொண்டிருக்கும்.
உலகளாவிய பயன்பாடுகளுக்கான சரியான வழிமுறையைத் தேர்ந்தெடுப்பது
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் வழிமுறையின் தேர்வு பல காரணிகளைப் பொறுத்தது:
உலகளாவிய தரவுத்தொகுப்புகளுடன் பணிபுரியும் போது, இந்த கூடுதல் அம்சங்களைக் கவனியுங்கள்:
நடைமுறை பரிசீலனைகள் மற்றும் சிறந்த நடைமுறைகள்
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதலை திறம்பட செயல்படுத்துவதற்கு ஒரு வழிமுறையைத் தேர்ந்தெடுப்பதை விட அதிகம் தேவைப்படுகிறது. இங்கே சில முக்கிய பரிசீலனைகள் உள்ளன:
1. தரவு முந்தைய செயலாக்கம் மிக முக்கியமானது
2. 'சாதாரண' தரவைப் புரிந்துகொள்வது
உங்கள் பயிற்சி தரவின் பெரும்பான்மை சாதாரண நடத்தையை பிரதிபலிக்கிறது என்ற அனுமானத்தின் மீது மேற்பார்வையற்ற முறைகளின் வெற்றி உள்ளது. உங்கள் பயிற்சி தரவில் குறிப்பிடத்தக்க எண்ணிக்கையிலான ஒழுங்கின்மைகள் இருந்தால், வழிமுறை இவற்றை இயல்பானதாகக் கற்றுக்கொள்ளக்கூடும், அதன் செயல்திறனைக் குறைக்கிறது. தரவு சுத்தம் செய்தல் மற்றும் பயிற்சி மாதிரிகளின் கவனமான தேர்வு ஆகியவை முக்கியமானவை.
3. வரம்பு தேர்வு
பெரும்பாலான மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் வழிமுறைகள் ஒழுங்கின்மை ஸ்கோரை வெளியிடுகின்றன. ஒரு புள்ளியை ஒழுங்கற்றதாக வகைப்படுத்த பொருத்தமான வரம்பை நிர்ணயிப்பது முக்கியம். இது பெரும்பாலும் தவறான நேர்மறைகளுக்கு (சாதாரண புள்ளிகளை ஒழுங்கின்மைகளாக கொடியிடுதல்) மற்றும் தவறான எதிர்மறைகளுக்கு (உண்மையான ஒழுங்கின்மைகளை காணவில்லை) இடையே ஒரு வர்த்தகத்தை உள்ளடக்கியது. நுட்பங்களில் பின்வருவன அடங்கும்:
4. மதிப்பீட்டு சவால்கள்
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் மாதிரிகளை மதிப்பிடுவது தந்திரமானதாக இருக்கும், ஏனெனில் தரை உண்மை (லேபிளிடப்பட்ட ஒழுங்கின்மைகள்) பெரும்பாலும் கிடைக்காது. அது கிடைக்கும்போது:
5. குழும முறைகள்
பல ஒழுங்கின்மை கண்டறிதல் வழிமுறைகளை இணைப்பது பெரும்பாலும் மிகவும் வலுவான மற்றும் துல்லியமான முடிவுகளுக்கு வழிவகுக்கும். வெவ்வேறு வழிமுறைகள் வெவ்வேறு வகையான ஒழுங்கின்மைகளைப் பிடிக்கலாம். ஒரு குழுமம் ஒவ்வொன்றின் பலத்தையும் பயன்படுத்திக் கொள்ளும், தனிப்பட்ட பலவீனங்களைக் குறைக்கும்.
6. தொடர்ச்சியான கண்காணிப்பு மற்றும் தழுவல்
'சாதாரண' வரையறை காலப்போக்கில் மாறக்கூடும் (கருத்து சறுக்கல்). எனவே, ஒழுங்கின்மை கண்டறிதல் அமைப்புகள் தொடர்ந்து கண்காணிக்கப்பட வேண்டும். அவ்வப்போது புதுப்பிக்கப்பட்ட தரவுகளுடன் மாதிரிகளை மீண்டும் பயிற்சி செய்வது அல்லது அவற்றின் செயல்திறனைப் பராமரிக்க அடாப்டிவ் ஒழுங்கின்மை கண்டறிதல் நுட்பங்களைப் பயன்படுத்துவது பெரும்பாலும் அவசியம்.
முடிவு
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதல் என்பது நமது தரவு உந்துதல் உலகில் ஒரு தவிர்க்க முடியாத கருவியாகும். சாதாரண தரவின் அடிப்படை கட்டமைப்பைக் கற்றுக்கொள்வதன் மூலம், இந்த வழிமுறைகள் மறைக்கப்பட்ட வடிவங்களை வெளிக்கொணரவும், முக்கியமான விலகல்களைக் கண்டறியவும், விரிவான லேபிளிடப்பட்ட தரவு தேவையில்லாமல் மதிப்புமிக்க நுண்ணறிவுகளைப் பெறவும் எங்களுக்கு அதிகாரம் அளிக்கின்றன. நிதி அமைப்புகளைப் பாதுகாத்தல் மற்றும் நெட்வொர்க்குகளைப் பாதுகாப்பது முதல் தொழில்துறை செயல்முறைகளை மேம்படுத்துதல் மற்றும் சுகாதாரத்தை மேம்படுத்துவது வரை, பயன்பாடுகள் பரந்தவை மற்றும் எப்போதும் விரிவடைகின்றன.
மேற்பார்வையற்ற ஒழுங்கின்மை கண்டறிதலுடன் உங்கள் பயணத்தைத் தொடங்கும்போது, தரவு தயாரிப்பு, கவனமான வழிமுறை தேர்வு, மூலோபாய வரம்பு மற்றும் தொடர்ச்சியான மதிப்பீடு ஆகியவற்றின் முக்கியத்துவத்தை நினைவில் கொள்ளுங்கள். இந்த நுட்பங்களை மாஸ்டர் செய்வதன் மூலம், நீங்கள் தெரியாததைத் திறக்கலாம், முக்கியமான நிகழ்வுகளை அடையாளம் காணலாம் மற்றும் உங்கள் உலகளாவிய முயற்சிகளில் சிறந்த விளைவுகளை இயக்கலாம். சத்தத்திலிருந்து சிக்னலை வேறுபடுத்துவது, இயல்பானவற்றிலிருந்து ஒழுங்கற்றது, இன்றைய சிக்கலான மற்றும் ஒன்றோடொன்று இணைக்கப்பட்ட நிலப்பரப்பில் ஒரு சக்திவாய்ந்த வேறுபாடு.
முக்கிய குறிப்புகள்:
உங்கள் சொந்த தரவுத்தொகுப்புகளில் இந்த வழிமுறைகளை பரிசோதிக்கவும், மிக முக்கியமான மறைக்கப்பட்ட புறம்போக்குகளை வெளிக்கொணரும் கண்கவர் உலகத்தை ஆராயவும் நாங்கள் உங்களை ஊக்குவிக்கிறோம்.